首页> 外文OA文献 >Scalable MCMC for Large Data Problems using Data Subsampling and the Difference Estimator
【2h】

Scalable MCMC for Large Data Problems using Data Subsampling and the Difference Estimator

机译:使用数据子采样和大数据问题的可扩展mCmC用于大数据问题   差异估计

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

We propose a generic Markov Chain Monte Carlo (MCMC) algorithm to speed upcomputations for datasets with many observations. A key feature of our approachis the use of the highly efficient difference estimator from the surveysampling literature to estimate the log-likelihood accurately using only asmall fraction of the data. Our algorithm improves on the $O(n)$ complexity ofregular MCMC by operating over local data clusters instead of the full samplewhen computing the likelihood. The likelihood estimate is used in aPseudo-marginal framework to sample from a perturbed posterior which is within$O(m^{-1/2})$ of the true posterior, where $m$ is the subsample size. Themethod is applied to a logistic regression model to predict firm bankruptcy fora large data set. We document a significant speed up in comparison to thestandard MCMC on the full dataset.
机译:我们提出了一种通用的马尔可夫链蒙特卡洛(MCMC)算法,以加快具有许多观测值的数据集的计算速度。我们方法的一个关键特征是使用调查抽样文献中的高效差异估计器,仅使用一小部分数据即可准确估计对数似然率。我们的算法通过在本地数据集群上进行操作(而不是在计算似然时使用完整样本),提高了常规MCMC的$ O(n)$复杂度。在伪边际框架中使用似然估计来从处于真实后验的O(m ^ {-1/2})$之内的扰动后验采样,其中$ m $是子样本大小。该方法应用于逻辑回归模型,以预测大型数据集的公司破产情况。与完整数据集上的标准MCMC相比,我们记录了显着的速度提升。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号